首页> 外文OA文献 >How data volume affects spark based data analytics on a scale-up server
【2h】

How data volume affects spark based data analytics on a scale-up server

机译:数据量如何影响向上扩展服务器上基于spark的数据分析

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Sheer increase in volume of data over the last decade has triggered research in cluster computing frameworks that enable web enterprises to extract big insights from big data. While Apache Spark is gaining popularity for exhibiting superior scale-out performance on the commodity machines, the impact of data volume on the performance of Spark based data analytics in scale-up configuration is not well understood. We present a deep-dive analysis of Spark based applications on a large scale-up server machine. Our analysis reveals that Spark based data analytics are DRAM bound and do not benefit by using more than 12 cores for an executor. By enlarging input data size, application performance degrades significantly due to substantial increase in wait time during I/O operations and garbage collection, despite 10 % better instruction retirement rate (due to lower L1 cache misses and higher core utilization). We match memory behaviour with the garbage collector to improve performance of applications between 1.6x to 3x.
机译:在过去的十年中,数据量的巨大增长引发了对集群计算框架的研究,使网络企业能够从大数据中提取重要见解。尽管Apache Spark通过在商用机器上展现出卓越的横向扩展性能而受到欢迎,但对于纵向扩展配置中数据量对基于Spark的数据分析性能的影响还知之甚少。我们对大型服务器计算机上基于Spark的应用程序进行了深入分析。我们的分析表明,基于Spark的数据分析受DRAM约束,并且对于执行程序使用12个以上的内核不会受益。通过扩大输入数据大小,尽管I / O操作和垃圾回收期间的等待时间显着增加,但应用程序性能却大大降低,尽管指令报废率提高了10%(由于较低的L1缓存未命中率和较高的核心利用率)。我们将内存行为与垃圾回收器进行匹配,以将应用程序的性能提高1.6倍至3倍。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号